《加密艺术与元宇宙》系列讲座第十七期,我们邀请到了技术观察者、指数深空创始人蒋程宇,杭州心识宇宙研究院院长、集智俱乐部核心作者、科学作家十三维,学者、人工智能工程师TT作为讨论嘉宾,由独立纪录片导演、艺术家、当代艺术摄影批评人袁园担任主持,与三位嘉宾共同探讨“ChatGPT 如何影响元宇宙 ?”
本文为讲座内容文稿,扫描下图二维码观看视频回放。
在过去的三四个月中,我们深刻地感受到了ChatGPT逼真的自然语言交互能力所带来的影响,它撼动了我们原本区分现实和虚拟的感知边界,基于自然语言的感知边界已经被改变。这种变革将带来新的可能性和挑战,我们今天将围绕这个主题展开多轮讨论。
在去年年底之前,整个话语、媒体、技术、资本都聚焦在区块链、元宇宙上,是2022年的一个关键词。但是,自ChatGPT问世以来,风向标发生了变化:一方面是媒体变化了,无论是新闻媒体还是社交媒体,ChatGPT几乎主宰了媒体的话语场域。另一方面,资本的风向标也发生了变化。以前,风投和大公司都将资本投向元宇宙,但是,现在资本的注意力已经转向了与ChatGPT有关的领域,微软甚至砍掉了元宇宙部门。首先,我们先进行一个宏观的判断,大家认为未来的技术图景是否已经发生了重大的改变?请用自己的理解和判断回答这个问题。
其次,在谈到ChatGPT的变革时,因为我涉及的主要领域在当代艺术,所以我更关心这种新技术带来的变革将如何影响我们的世界观、价值观、权力关系和生产关系,以及这些结构性的问题将会发生何种转变。这是艺术家们特别关注的问题,但随着技术的发展,越来越难以理解,甚至不知道是怎么回事,这对于艺术家来说是一个问题。因此,我们先在大的问题上展开一轮讨论。关于技术或技术浪潮的转变,有一些内在的逻辑。即使现在风向变了或者有什么变化,捕捉这种变化的风向标也永远会落后一拍。但是世界上有一些事情是有长期规律和价值的,它们一定会以某种方式发生改变。
让我们来拆解一下:元宇宙的长期价值是什么?AIGC或者AGI对话本身带来的价值是什么?对于元宇宙,所有人都对它寄予了非常高的期望,尤其是在经历了元宇宙的疯狂时代之后。它最可能为所有人带来的是人机交互的最后一步,成为所有人的最后一个平台。在这个平台上,人们可能会生活在元宇宙中,这是这个事情的一部分,《头号玩家》的故事给我们展示了这个可能性。
现在我们已经可以看到这个事情的一部分趋势,平均每个人每天使用手机占据的时间已经超过4个小时,有些人甚至达到8到10个小时的屏幕开启时间。人们被电子信息时代、新世界所包裹,这是一种现象。另一方面,我们需要以怎样的方式与它真的互动呢?有几个角度:因为这次的疫情,大家至少有1-2年的时间都不在办公室里上班,待在家里,这个环境是非常适合元宇宙的。很大程度上,宅人玩家的大玩具越来越多的时候,这是应该会发生一些奇迹的时候。确实,最近的几款VR设备有百万级销量,产品化的程度越来越高,但是内容制作的奇迹并没有发生。我们可以观察到VR总体的市场仍然一定程度上低于预期,或者是距离成为大众风潮稍微远一点。人类的知识世界可以分为两部分阵营:二十年前,《黑客帝国》等电影呈现的是人类生活在计算机里,而《流浪地球》则给我们展示了数字生命扮演重要角色的另一个角度。在元宇宙中,我们是适合作为一种生活在其中的物种吗?在很大程度上,肉体并没有脱离现实世界,现实世界仍然是交流非常重要的一部分。如果有足够的资源,我们可以在实验室中进行更多的探索。
到目前为止,手机是最广泛使用的媒介,一个人每天在手机上的使用时间可能达到5-10个小时,但这并不与现实世界的交往冲突。
然而,使用VR、AR可能会带来一些与现实世界交往的冲突,可能更适合宅群体。例如,作为深度VR玩家的TT,最多使用VR头盔的时间是2-5个小时,再长时间使用则会导致疲劳,并切断与其他世界并行的联系。这可能是目前的一部分影响。
坦率地说,我对大规模神经接口的前景并不看好,要达到与现实世界可以媲美的神经接口水平,我认为不是我们这一代人能够实现的事情,甚至可能不是有生之年的事情。因此,在未来一个比较长的时间内,我们需要与时间建立真实的连接,现实世界仍然有巨大的版图尚未被充分开发和展开,包括AR、VR等技术领域。
作为一个风向标,它为什么转向了?转向到哪里?去年上半年一部分转到AIGC,下半年年底到现在ChatGPT产生了巨大的影响。我们回过头来,重新拆解在元宇宙里面最期望的,对人最重要的是什么?
也许是人与人之间有一个接近真实环境的交往,真实环境中的素材是什么产生的?所有周遭的环境是怎么产生?怎么分布的?怎么产生它的行为的?这里面每一点都是AI相关的问题,AI如何自动生成这些场景,反而是在元宇宙里面,需要无处不在的智能帮我们去创建一整个几乎真实的环境,不管是什么程度上的真实,不管是什么样世界的设定,巨大的工作量是需要通过我们共同建设的。
从这样一个角度来讲,我们就不难理解AIGC突然的火爆、释放的生产力,GPT、ChatGPT火爆、释放的生产力以及背后的本质价值,会受到长期的影响。这是我对袁园老师第一个问题的部分看法,其他的嘉宾们我们可以一起来讨论。很高兴能够听到蒋老师的观点,他对于元宇宙的分析很深入,尤其是关于最后一公里的问题。我同意他的看法,最后一公里的技术问题只是其中的一部分,更重要的是人们是否真的愿意100%地沉浸在虚拟世界里,放弃与现实世界的联系。这可能是一个很大的挑战,因为我们对于现实世界的欲望和渴望是无穷的,智能技术应该能够让我们在现实世界变得更加智能化,而不是将我们彻底地投入到虚拟世界之中。
我认为,元宇宙的发展需要一个平衡,既能满足人们在虚拟世界里的需求,又能让人们与现实世界保持联系。智能技术应该成为现实世界的一种增强,而不是取代现实世界。我们应该保持开放和理性的态度,持续探索元宇宙的可能性,同时也要注意不要迷失在其中,保持对于现实世界的敬畏和关注。
第一个方面,我是个教育工作者,是老师。ChatGPT对教育的影响应该是所有行业中排第一的,因为教育对人类、民族或国家来说是头等大事。然而,ChatGPT已经彻底改变了教育工作者的身份,我们之后肯定会再详细讨论。ChatGPT极大的提升了教育的效率,同时也对老师的要求提高了不是一到两个档次,而是几十甚至上百个档次。第二个方面,我从中学开始研究算法,本科和研究生期间主要研究人工智能。恰巧这几年GPT非常非常火,作为一个从事人工智能领域的人来说,这让我感到很兴奋。虽然我们会对它进行深度哲学和社会意义方面的思考,但对我来说,更多是从技术角度来考虑,GPT极大地提高了我的工作效率。在短时间内,我的工作效率从去年的1分提升到了30-50分,我相信随着GPT的发展和多模态的应用,我的工作效率将会提高到100分,这是一个令人惊叹的事情。尽管有些可怕,但我也感到非常兴奋。这些月来我几乎没怎么睡觉,每天都处于极度兴奋的状态。
第三个方面是我所处的环境,我是一名游戏设计师,曾制作独立游戏,从最初的概念到开发和发行的全过程都参与其中。从艺术的角度来看,我发现AI对艺术的影响并不是一种冲击,而是极大地拓展了创作者的思维。为什么这么说呢?当我们创作一首音乐的时候,大多数情况下是用我们的感性来感受这个世界,很少有AI参与到创作中来。但实际上,我从十年前开始就一直在使用AI来创作,因为AI能够综合所有的东西,比如音乐的灵感、游戏的灵感等等,是综合性的。而人类再怎么学习、怎么进行综合,实际上也很难达到AI的水平。对于创作来说,AI是一把双刃剑,但更多的是提高创作者的创作效率,而且还能够突破人类的创作极限。
这是会带来比较大的改变和冲击的三个方面,具体的内容可以在之后进一步展开。谢谢!
感谢TT老师的分享,非常期待您介绍从1到30,效率提升30倍的工作流是如何应用到您的工作中的。作为ChatGPT的深度用户和长期研究这个领域的人,这些经验都是非常珍贵的。
您也提到了教育部分,之后会有专门的部分来谈论其影响。正如您所说,每个人的世界观和价值观都受到教育系统的影响,这直接挑战了教育机制,给我们带来了思考。
特别是在艺术领域,传统艺术家逐渐被越来越多的新兴艺术形式所取代。对于那些在传统的某个媒介的艺术家来说,他们往往只能用有限的媒介质料创作,而这又受制于他们肉身的有限性。使用人工智能并不是为了压制艺术,而是为了拓展艺术的思维和可能性。期待在之后的分享中,您能基于您的创作展开更具体的分享。谢谢袁园老师,以及老蒋和TT老师前面的分享。我还是回到开始袁园老师提出的问题:ChatGPT和元宇宙的关系是什么?怎么看待它的变革?在我看来,元宇宙的范畴和远景还是没有变,但是会有一些增强的地方让我们更清楚认识元宇宙本身。我是这么看区块链、人工智能以及元宇宙的关系的:可以把区块链看作是一种生产关系的变革,AI看作是一种生产力的变革,但是生产力提升的极限又会导致某种新的生产关系的变革。我会把元宇宙认为是一个终极愿景,或者是一种交互的终极境界,也可以认为它是一个大筐,是包容所以前者的。
在这个三层架构中,元宇宙本身不仅是一个交互的问题,而可能是所有人、机器、后人类、数字生命等,融合在一起形成一种新的社会形态,在这里会产生新的文化、新的文明。而AI在中间起到了非常关键的角色,一方面能影响生产力和生产关系;另一方面又影响未来人类文明和文化的发展。其中区块链代表的生产关系,不用多说,它其实解决了一个问题,即把确权的事情还给了每个个人,每个agent都是主体。现在这轮AI出现之前,大家会说这是一个去中心化个人的时代,每个人上网注册钱包就能有一个地址,一个ID可以走遍天下,可以做任何想做的事情,私钥由我自己保管。但其实OpneAI的创始人奥特曼还做了一个Worldcoin项目,使用虹膜把每个虹膜映射到一个独一无二的ID上,识别一个独一无二的个体。区块链本身就能把每个agent都赋予一个独有的确权的ID上。而在在AI发展之后尤其AGI的可能,我们发现不仅是人,AI本身也有这个趋势,它也可能作为一个主体参与到区块链以及未来元宇宙的建设中去。
关于AI的发展,首先肯定是作为一种生产力,TT老师十多年前玩算法,用它来提高自己的效率,现在也是用ChatGPT提高自己的工作流,本质上还是一种算法工具。现在,基于自然语言的ChatGPT已经展现出很多特别之处。语言的运用提高了它的效率,并让它能够进行画画、音乐创作以及写文章等。同时,我们与它对话的过程中,它好像又具有了某种有意识的主体特征。然而,它自己总是会强调它只是一个人工深度学习网络大模型,说自己没有的情感意识。
这种发展说明什么呢?这意味着语言已经成为了人类、人工智能以及世界之间的接口,而ChatGPT就是这个接口的一种形式。
下一步的发展,必然是通过某种形式的对话来展现这种接口。在我的看来,ChatGPT本身就像早期的原型人类一样,也可以看作是类似于系统1这样人类潜意识的主体形式,但还没有独立的自我人格和意识。我们与之交互的方式,也正是在这个阶段之中。这个时候,ChatGPT既具有创作工具的属性,又具有一定的agent属性。
接下来的发展,包括与AIGC合作促进元宇宙的发展,后续实践的方式,就是在不同场景下,将ChatGPT作为一个底座、作为一个通用的能力接入,然后根据不同的需求,定制出各种不同的人物形象。这一过程,将会使ChatGPT既具有工具属性,同时也与某种人产生情感、某种意识上的联系。这也是AI从一个生产力工具,逐渐发展成为一种新的agent的过程。
最终,这一过程将会形成一个自我意识的主体,当然这也可能是一个终极的愿景。在这个愿景下,人、机器和数字人将会成为元宇宙的原住民,从而形成元宇宙的创造过程,这也是ChatGPT未来的发展方向。可以看到这几年AIGC的发展也是非常火热,DALL·E、Stable Diffusion等这些画图、音乐工具,包括ChatGPT本身都是生成模型的产物,它显然会极大促进元宇宙本身的创造。前不久,FreeAI.IO推出了一个产品,在一个元宇宙环境中,我说“创建一个什么剧场”,它就创建出来了,本身就是AIGC,而且是一种对话的方式进行的创作。因此AI本身在元宇宙中作为一种创造工具和agent产物呈现,同时又会导向促进元宇宙本身的建设。当元宇宙本身真正形成的时候,其中数字agent可能是有意识的自我主体,因为会带来一种迥异于人的世界观。我们已经发现ChatGPT展现的智能跟人类是有相同,但也有不同之处。如果放弃人类中心论的思考,比如AlphaZero下棋的套路和人类完全不一样,人类下围棋很多定式,认为应该按照这个走,而AlphaZero则采用了完全不同的打法,我们很难理解它为什么这么走。这就是打破人类中心。
当AI或者说ChatGPT后续具有虚拟独立人格的agent参与元宇宙之后,就会产生迥异人的独特的文化了。不过,区块链、AI和元宇宙这三种因素之间的关系也并不是简单的包容关系,它们之间也存在竞争的关系。
比如区块链和AI之间的关系,AI本身会产生很多内容(AIGC),但这些内容毕竟是生成的产物,我们也会担心安全问题和虚假内容的问题,会干扰对真实世界的感知。实际上,这个问题可以用区块链来解决,当我们给生成AIGC主体的地址赋予确权和ID时,就可以有效地溯源,制止假的和非真实的内容。因为如果再将其用于新的样本训练,可能会降低模型质量,只有真实世界的数据才能更多地提高质量,也能解决模型的效率问题。
总之,我的看法是,通过这三个因素的相互作用,元宇宙会在文化和社会文化层面上得到展现;区块链和Web3主要是生产关系;AI主要是生产力,但它可能会从生产工具向另一种生产关系的构建转化,作为另一种非人类主体参与其中。十三维老师特别宏观地解释了区块链作为生产关系、AI作为生产力的区别,但是两者也相互影响。元宇宙被放置在更大的愿景中,可能会涌现出新的社会形态和新的文明。
从这个意义上看,AI的发展不仅仅涉及ChatGPT,它已经在改写未来的技术格局,两者之间不是排他性关系,而是相互促进和加速的关系。
十三维老师也从已有的细节中讲述了它们之间的促进关系。现在,当谈到ChatGPT的局限和缺陷时,会说到准确率不高,特别是在计算和逻辑推理方面,准确率大约在60%-80%之间。十三维老师建议从预训练的数据集入手,用于预训练的数据集可能是已经经过区块链确权的,并且对原始数据进行了验证,因此可以通过源头解决“胡说八道”的问题。
十三维老师提出的思路非常好,但其实我非常喜欢它的“胡说八道”,我们一会可以再次进行讨论。TT老师刚才谈到了ChatGPT与教育相关的内容,包括如何将其嵌入到自己的工作流程中。请先让TT老师分享,然后我们再进一步讨论。
@TT:
AI如何提高工作的效率?实际上,我在十年前已经想尽一切办法如何让AI提供自己的工作效率,我超级热衷如何快速,因为花太多的时间去花在找资料、做前期工作,会让我觉得很辛苦。我做的第一个AI是一个AI音乐家,因为我自己玩乐队,风格越玩越奇怪,后来就很难找到即兴的。能够创作即兴的音乐是最爽的,我就想是不是可以让AI帮助创作即兴音乐。
深度学习有一种叫长短期记忆(LSTM),我用这种方式将自己的音乐,包括网络上的音乐进行了早期的模型训练。我发现它能够帮助我创作,而且最主要的是它能够通过我表达的情感来帮助我创作。当时的效率还不太高,而且数据集不是太大(不超过1万首音乐),所以出来的内容不是那么精确。但是,我发现这是一个挺有趣的方向,而且我采取的方式是挺有意思的。机器理解人类情感是非常难的一件事情,特别是对数字信号,但是模拟信号相对容易些,比较能够找到方法如何理解情感。我想到一个有趣的办法是,因为很多音乐平台都是可以对音乐进行评论的,在评论的过程中,人类其实已经对它进行了标定。比如我听到这首音乐的时候,心情可能不太好,于是评论的内容是伤心的,于是乎这些评论就是对这段音乐波形的数据标定。这种方式是不是可以来训练一个带有情感的音乐模型呢?我就做了这个步骤。但是问题在于,我还是没有办法将音乐中的乐句进行拆分和理解,是不是可以用在结合ChatGPT对音乐的语言进行预训练?我们可以讨论,说不定能够将训练出来的结果放在NPC里面,就真正具有人类情感了。这是我前期做的探索。我插一句,乐曲下面的评论跟乐曲的时间段是无关的,不知道这个评论标定的是乐曲的哪一段。更直接一点的信息是视频弹幕,点击曲线都有,是不是可以把这个抓下来。弹幕我真没有想到,因为我不太喜欢看视频。这是一个很棒的想法,很受启发。现在难在哪里呢?举个例子,比如弹一小段乐句,用吉他是一种情感,换钢琴弹也许是另外一种情感;或者人来唱,可能情感又会有变化,而且波形的变化也很大,所以不能通过波形进行情感的判断。我想,难度在于如何让GPT对这些乐句进行理解和编码。弹幕是很棒的想法,期待跟大家一起聊,也许我可以试一下。你是想直接生成音乐波形、持续信息,还是生成MIDI信息,或者其他什么样的信息?其实你是有一系列系数的考虑的。最早期的训练数据是 MIDI,音乐的特点是由分别对应中音、高音、低音的音符和不同的编曲组成,实际上不同的编曲代表着不同的情绪。如果将编曲信息直接进行波形分析,意义不是很大。但是 MIDI 文件里面包含了音轨,例如钢琴音轨、贝斯音轨、吉他音轨等,每个音轨里面的数据都是分离开的,因此 MIDI 是比较适合进行训练的。但是,在网上能够找到的 MIDI 数据并不是很多,大部分是 MP3和WAV 文件,这部分数据最初我想直接生成波形,但实际上很难将波形分离出来。
这个项目最终发生了很大的变化,最后变成了一个能够做文案的 AI,因为最终没有派生出音乐的。有趣的是,我们扒了很多歌词,歌词代表着人类的情绪。想象一下,如果每个人在这个音乐平台上都有自己的输出,这个 AI 就能够了解你的情绪和特征,可以专门为你写广告文案。当时我们基本上朝这个方向发展,没有太多涉及音乐方面的内容。在大语言模型逐渐流行之后,有一种新的方法开始做起来,十三维老师提到语言模型只是拟合了一个概率模型,如果只拟合文本概率,其实并不真正了解世界上的任何事物,只是了解符号之间的关系。为了更全面地理解世界,现在的做法是采用多模态方法,将图片编码也放进transformer中一起训练,甚至将图片本身作为句子的一部分,以此来取得更好的效果。
针对你之前的问题,将音乐信号和歌词信号放在一起进行训练,从而产生新的音乐信息,这是未来可能非常重要的工作,它可能会产生一些比较宏观的变化。我之前看到有人将音乐CD封面和乐曲进行对应,还有一个演奏乐团在演奏时观察捕捉观众的表情,以此获得音乐对应的情感数据。但是这种方法成本太高了。如果有机会可以尝试一下。
谷歌有一个生成模型,从文本到音乐等各种方式都有,你怎么看谷歌的生成音乐模型。四五年前,我仔细玩过谷歌的几个demo,以及如何生成代码、调用模型等等。当时的印象是它可以很好地帮助你生成一些和弦,比如弹钢琴时自动帮你生成钢琴和弦,还可以生成音乐交互的玩具或方式,效果很好。但是对于产生一整段长旋律的主题或其他作用,当年的效果不太好。最近半年,我也玩了一些相关的,效果确实改进了一些。同时,使用句子生成产生的一些音乐片段,可听性还不错。但并不是谷歌的这一套,而是一些创意公司或其他研究组的新工作或改进。这是当前的页面,它支持文本和故事模式,还可以嵌入旋律。这个页面有点类似于十三维老师所说的多模态,从绘画和图像到文本,文本对图像进行描述;再从文本到音频生成。此外,这个页面还可以开放参数,让用户进行调整。
那么,这个页面与TT老师所讲的自己实践中的模型方向有什么关系呢?2010年左右,那个时候还没有GPT这么好的结构,我用的LSTM主要是语音识别,另外还有尝试过GAN(生成对抗网络),甚至还到CNN(卷积神经网络)对波形进行识别,现在的GPT、Transformer效率高到挺可怕,音乐部分完全不是难题了。我现在训练的模型主要应用于文案生成、广告推荐等方面,包括用户推荐和广告推荐算法。最近,我正在研究 NPC 剧本,尝试快速生成 NPC 语言,并考虑如何为 NPC 赋予性格等特征。
我之前的模型加上现在的 ChatGPT,实际上可以真正地赋予 NPC 人类的情感,这个点可以进一步探讨。这个模型在情感方面的应用也是很有潜力的,因为其中包含了很多音乐数据,而音乐是能够很好地表达人类情感的。我的库中还包含了大量用户行为和用户标注的音乐情感数据。
我讲一个有趣的问题,我们之前说了语言模型,它是如何进行概率拟合的。实际上,对于这种大规模文本的语言模型,可以通过显示的符号表示直接询问它,这段文本是表达悲伤、喜悦还是其他情感?这种方法确实很贴切。
然而,对于其他模态的信号,情绪标注的详细程度过去很少,这使得情感标注的信息和信号不够充分。不过,现在有一些事情正在发生,可能会带来很大的变化。回到之前的问题,我的早期探索基本上是试图通过 AI 的方式提高艺术创作的水平,当时的效率并不是太高,但目前来看,AIGC 对视觉和听觉相关的艺术的效率提升非常惊人,最近可能会有一些关于 AI 建模的新进展,这让我非常期待。
对于游戏行业而言,如果 AI 真的能够建模,甚至能够处理动画方面的问题,那么任何一个有想法的个体都可以迅速地制作游戏,甚至塑造整个元宇宙都是非常有可能的。给我们具体讲讲你从1-30的效率在工作流,具体怎么做的?最开始使用 ChatGPT 的时候,我在想如果能够用于游戏全流程的开发,可以提升多少效率呢?实际上我最早期的探索主要还是在剧本创作上,最早的剧本创作。因为前期的概念和剧本难在于只能一个人完成,没有办法跟太多人讨论。如果只是埋头,像我后面这面墙大部分都是我手绘的对象,我盯着那面墙这个地方应该怎么设定,实际上我会花很长的时间,也找不到特别好的设定。而且在设定的过程中要考虑它们之间,比如说你的主角和主角经历的故事,主角所处的环境场景都需要逻辑上自洽,这就很考验编剧能力。因为我本身偏理工科,编剧能力不是很强,于是乎我就拿 ChatGPT 来进行尝试。
最早的尝试是什么呢?我将我的需求说成“游戏创作”,要它告诉我有哪些需要我注意的地方?它列了七八项给我,我每一项再深入挖掘。
第一项是剧本,我拿到它给我的第一个剧本的时候,我觉得这个剧本实在是挺一般的。但是如果我对它进行深度挖掘的时候,它给了我一个超级大的工具。然后我就发现,比如说我现在要设计我的主角的性格,它就直接给了正面性格和负面性格将近 200 个关键词,它只需要让我选择就好了。我觉得这样的创作可能有点儿太工具化了,但是很符合我的理工男思维,我就试了一下。我就挑了一下:“我现在需要一个坚定的、尊重环境、积极向上的正面性格。但是他的负面性格有一点点狡猾,有一点点强势,但是偶尔会有一点暴力的主角。”这个描述既有正面,又有负面,但当我告诉ChatGPT这些关键词后,它马上指出这两种性格特点之间存在矛盾,因此需要调整。我很惊讶地发现,它真的能够理解我用来描述性格的形容词。这让我认为ChatGPT是一个非常好的工具,因为创造不一定是人类的专利。有时候,我在听音乐时闭上眼睛,脑海中就会自动出现画面。这些灵感通常来自我观察到的事物,而不是我的思考。因此,ChatGPT给我提供的工具非常实用,我可以用它来创造人物。
接着,我用ChatGPT探索了人物关系的设计,包括主角与其他NPC之间的关系。它给出了一个包括近300个人物关系的列表,超出了我所知道的西。我用老方法设计了一个童年朋友走失,最终变成敌对关系的情节,但是ChatGPT给出了一个更好的设计。我想,如果我将游戏中的每个模块(如主角的人物关系、性格、技能和实践)都模块化,ChatGPT可以将每个板块都展开并设计成工具。于是,我使用ChatGPT的API创建了一个游戏设计工具集,以帮助初学者轻松创作游戏。我们团队中的很多人是初学者,游戏创作和设计涉及文学、动作、音乐、程序和编码等多个领域,难度很大。但是这个工具集将大大提高效率,我相信随着完善,它的效果会更好。
在过去的两个月里,我学到的内容比过去两年学到的还要多。这是ChatGPT的非常棒之处。TT老师用游戏做案例,我也在网上做了点儿案头工作,跟你这个配合,能够让我们的观众有一个直观的感受。这不是一个成熟的商业项目,是黑客马拉松项目,跟TT老师讲的游戏工具集有点儿类似。左边是关于游戏的基本介绍。第二个环节是关于你的故事,你需要用纯文本描述你的故事;第三个环节是设计你的游戏的世界观。接下来是游戏中角色的描述,全都是选项式的。当你点开每一个下拉菜单,就会有若干个选项可以选择。选择完毕后,系统会生成场景描述,由于系统已经集成了ChatGPT和一些图像生成模型,最终,整个游戏的内容会被汇总,输出成一个PDF文件,包括整个故事的描述、游戏的世界观、角色的设计以及最终整个场景的搭建。
即使像我这样完全不懂游戏开发的人,也可以利用这样的工具进行游戏开发。
另一个项目是完全利用ChatGPT生成代码,制作出的一个完整的游戏。制作者详细介绍了如何与ChatGPT进行交互,而不需要自己编写一行代码。最终,生成的游戏可以在线进行访问。这是一个非常简单的二维游戏,可以通过手机操作,就像使用激光枪打星球一样。这是一个完整的游戏,可以进行交互和玩耍,但是所有的代码都是通过与ChatGPT用自然语言交互来生成的。
未来,当商业工具化和平台化越来越成熟时,可能会出现这种形态:这个公司在元宇宙领域非常知名。公司创始人的父亲去世了,他想在元宇宙里为父亲创造一个永生的NPC,他可以使用ChatGPT的API与之进行交互。我们看到ChatGPT已经在为元宇宙中的NPC赋能了。
我将这个案例添加到了TT老师讲述的如何提高创作效率的内容中。我的理解是,创作者需要从占用精力的工具性事务中解脱出来,才能提高效率。十三维老师,你怎么看效率的提升对创作者的这种改变?从根本上,我认为AI作为生产力工具的提升,会在未来对人类社会产生深远影响。然而,我内心还是担心,因为像ChatGPT这样的技术出现后,OpenAI也不再对外开放和开源,这让许多人担心未来这些技术会被大公司垄断,进一步加剧社会的不平等。但从我个人的角度来看,AIGC工具本身又是解放人的创造力的事情。
以前,无论要成为一个游戏插画师或者进行剧本创作,都需要长时间才能创作完成。对于游戏开发者来说,可能需要在大学课程中花费数年时间才能完成学业,或者作为一名独立开发者,需要付出大量努力。然而,随着AI工具的出现,机械性的任务可以被自动化处理,大大降低了个人创作的门槛。这意味着许多没有文化背景或机会去接受专业培训的人,也可以通过利用AI工具来实现自己的创意和创造力。
从这个意义上讲,AI工具的出现可以说是符合去中心化精神和区块链最初的目标,即解放个人的生产力和能力。我认为,AI生产工具最终也将促进这一方向的发展。虽然存在对未来巨头的垄断的担忧,但也可能会有其他领域和系统的巨头相互制约,最终还是可以实现个人的生产力和创造力的解放。
此外,随着技术的进一步发展,交互方式也将从语言逐渐转向人格本身。例如,我的个人助理可以通过对话实现创造艺术品或其他作品,而不需要手动设定参数。这时恰恰是独特的不同人格是最有价值的。这可能是未来的发展趋势。TT带出了一个很重要的话题,请蒋老师来回应一下。刚才讨TT之前的AI和音乐有关的实践的时候,试图通过波形做情感的分析,这也是ChatGPT有争议的地方,它到底算不算通用的人工智能?通用人工智能关联到自我意识、情感计算、元认知,TT讲的都跟情感计算有关系,请蒋老师回应这个部分。作为创作者,我们最本质的动力是进行创作,最吸引我们的是真正要与世界发生联系的时候干的事情是什么。我们作为创作者,真正要做的事情是扮演一个“storytelling”的角色。不管创作什么样的作品,架上艺术、装置艺术、雕塑、音乐、电影、游戏(第九艺术)等,所有这些艺术形态都是在把自己的观念向世界传达,用我们的观念和载体进行了一个“storytelling”。七年前,我们下围棋已经无法超过机器了,现在我们又发现编故事的速度上也无法赶上GPT,如果它讲故事的能力超越了我们,那我们讲的故事还算什么?
换句话说,我们要问的是ChatGPT自动生成的故事真正懂你吗?它真的懂人吗?它所代表的具体是什么呢?我们一起回望一下人类是如何成为这个物种的。我们不是从天上掉下来的,也不存在从石头缝里蹦出来的这回事,我们是母亲生的。作为一个生物物种,最重要的是遗传、继承整个基因库携带的所有与这个世界相互反应过的事情。我们作为一个生物个体,携带的是所有祖先的故事,三十万年前开始崭露头角成为智人;更早的400万年前成为直立人;更早的恐龙灭绝时期,哺乳动物开始走出丛林,成为这个星球上新的主宰;再追溯到更早的寒武纪大爆发,大规模的脊椎动物世界的爆发;再追溯到十亿年前、三十亿年前,地球可能还是一个大水球,绿藻浸泡在无边的浪潮中不断地用太阳光转化氧气。
我们现在所存在的,我们所意识到的,我们所感觉到的,我们认为我们作为一个人类高贵的、能感受到世界上的一切,其实都来源于我们在过去所有生物进化史中感受到的故事,我们所有的生与死、竞争、厮杀、互助,片刻的作为生命的享受所感受到的事情,保留下来的总和。这是我们作为一个物种最重要的遗产。
我和TT很大程度上都是做算法以及做物理的,我们更擅长于从机械世界来去分析一切,从决定论的世界分析一切,但从这个角度讲,我必须说机器没有经历进化,机器作为智能体没有经历物种之间的竞争,没有经历生态环境的成长与毁灭,它没有经历所有这一切的事情,所以它本身是不存在像我们人类这样的感受的。它也许可以写出一个好的故事,很大程度上确实写的不错,而且是我们所有人类写过的、经过过的故事的总和。从这个角度讲,机器本身并不想要storytelling,只有人想要storytelling。过去的看法是机器是一个工具,使用这个工具创造什么样的东西。现在,一部分后现代的价值观可能要打破人类中心论者,其实地球也不中心论,碳基生命也不中心论。回望所有不同类型生命的发展史,甚至包括碳基与硅基的,硅基生命本身不是从进化过程中去产生,没有像我们这样的物种本能,我们可以以任意方式塑造成某种行为,塑造成某种方式。如果我们本身最关键的是作为个体生活在社会中感受到的一切,作为创造者我们迫不及待的想要把我们讲的故事讲给所有人听,任何机器是不可能打倒我们的,因为我们完全不是机器,机器将会是和我们共同创作的伙伴,我不认为机器仅仅是工具,而是硅基的同事。过去,制作电影、小说等需要集体创作,可能需要三个人、五个人,甚至一万个人的劳动,我们是人类的同事,而机器是我们的工具。现在,我们多了一些“同事”,它们是硅基的同事,虽然它们与我们没有经历过相同的生命过程和演化,但它能够揣测我们的经历,并帮助我们更有效地表现作品。
如果我们关心的是故事叙述,关心的是与世界的联系,我们想要整个世界知道我们所想、所感受、所思考、所想要分享的事情,那么作品的载体并不重要。我可以是诗人,写几行或十四行诗,也可以像莎士比亚创作四大悲剧和四大喜剧,或者创作各种题材。所有这些题材的设定,讲述的都是我们最想表达的核心信息。
在人工智能时代,故事设定的作用是什么呢?它可以帮助我们的读者、观众、影迷或任何接受我们信息的人更好地理解作品,无论这个作品是几秒钟的短片、几分钟的短片、一小时或两小时的电影、小说,或者是表演艺术作品。我们可以用任何载体和方式来创作和呈现这些作品,将来所消耗的可能只是一度电而已。几年前,我曾和朋友们一起探讨这个非常关键的主题,即如何将故事、艺术和技术相结合。可能我提到人工智能,会有很多故事和正在进行以及想要实现的事情。五六年前GAN技术刚刚出现的时候,人类第一次发现了一种机器可以创造几乎与真实照片无异的媒介。当时我跟朋友们说:五年或十年后,自动创造电影的时代就会来临。我周围有很多朋友,就是在研究GAN的,他们说这不可能实现,你知道这个技术有多难吗?你知道它训练起来有多难吗?但我说:一定会产生不同的形式,会创造不同的题材,这一定会实现。事实证明,现在只需要对电脑不停地讲述我的故事和设定,这部电影就会自动创作出来了。我相信,五年后,好莱坞最佳电影、最佳短片的奖项,可能会颁发给一个小学生,这种情况可能真的会发生。这真正带来的意义是什么呢?它使得那些过去没有能力创造出类似好莱坞级别的精妙叙事或高质量作品,或者是没有4A游戏作品叙事能力,但有好故事想要与世界分享的人
@袁园:谢谢蒋老师这么快语速、大信息量的分享,我试图给你梳理一下。首先,我认同蒋老师所说的,不要把AI仅仅当成一个工具,若将其视为工具,AI所能释放的仅仅是工具的效率。虽然它还没有自我意识,但是我们应该把它当做伙伴。甚至更为激进的是,把自己作为一个后人类,将AI看作是身体的义肢。这种时候,对待AI的方式可能会与以往完全不同、这样,即使AI存在很多缺陷,他能帮助我们完成80%的事务性工作,而我们可以聚焦在20%的创意性工作,如故事设定、创造力、想象力等。不要狭义地把AI视为一个工具,而应该视为跟我们配置在一起,这样我们就可以在技术的快速演进中一起进化,达到共生的关系,这是一种更积极的态度。另外,蒋老师说到音乐唱片工业是如何被互联网产业重塑的,由唱片公司垄断的中心化生态演化成分布式的生态。蒋老师预言随着AI的发展会蔓延到整个文化工业,这一点可以追溯到以前,比如原来电影、影视是由好莱坞大制片厂垄断的。如今,我们已经看到流媒体的兴起,电影制片工业已经发生了生态结构上的转变,像Netflix已经成为大头,原来的好莱坞甚至不让它的片子参选奥斯卡,现在看到Netflix的作品不断进入各大主流影视奖项,成为中流砥柱。如蒋老师所预言,文化工业的底层生态被重塑,变成分布式的创作生态,可能流媒体由Netflix这样公司垄断的生态又会再一步分化。工业可能还没被洗牌,但是观看者已经做好准备了,大家都已经被抖音、短视频垄断了30秒的注意力,再长一点3分钟,假设普通人可以制造30秒、3分钟、10分钟的影视产品,进行分发,可能会自下而上重塑生态。我某种程度上也认同蒋老师的这种预言。我认同的原因可能不是出于技术,是因为我喜欢自下而上的“捣乱”,反对中心化的垄断的机制,自下而上的涌现会有更大的创造活力。TT老师是聚焦在生态基础设施层面,可能要给创作者提供这样的平台,使得这样分布式的创作生态能够更早地被大家应用。我原来做纪录片工作坊的时候,最喜欢讲的一句话是“每个人都值得去爱,如果你听过他的故事。”
值得展望的就是,分布式的创作生态可能使得每个人的故事可以自己讲,不用等着别人讲我的故事,自己来讲、自己来分发。我有一个东西可以分享给大家,我在1月份的时候用ChatGPT和几个AI辅助工具一起完成了一个场景,包括建模、材质等等。以往一个人至少要半年才能完成,但是用ChatGPT只花了不到15天的时间,全部搞定了。这个场景是用Houdini(一个建模软件)做的,它可以使用C语言,具体就是VEX语言进行建模。我大量采用ChatGPT的方式,前面5天在想一些基础的概念,画一些草图,后期花了10天的时间完成,包括室内场景,室外场景,一个比较庞大的世界。
怎么靠ChatGPT来建模的?我能够想象的是ChatGPT能够解决一些脚本。它能帮我建一些基础的模型,或者是最快地找到我想要的材质。举个例子,吉他是比较简单的,ChatGPT可以直接把houdini的VEX语言代码告诉我。
对于大多数物体、常规物体ChatGPT已经OK了。比如说很复杂的,像这一部分,实际上是用了素材里面的材质,其他大部分场景大部分包括设定材质等等都是通过ChatGPT、Houdini和UE,这三者合作的。
如果能用代码的方式代替你的某项工作,ChatGPT绝对是可以让你翻100倍的工作效率,这个部分是让我觉得非常非常夸张的。TT,你之前在B站的UE教程非常有名,有几十万、上百万的流量,如果你把现在的三剑客——ChatGPT、Houdini和UE,也录一个教程,这个教程会点爆的。@TT:
确实是有这个想法,要将这个方法分享出去,当然这个方法的前提是需要使用到Houdini,Houdini还是一个门槛比较高的建模软件,门槛非常高,里面有大量几何学的内容。我们现在讨论 ChatGPT,十三维老师对认知这一系列问题的研究非常深入,刚才十三维提到了System1,但并没有展开太多。
我们过去讲人工智能是一种很机械的东西,能够取代那些高度思考密集、高度认知密集的工作。但是现在发现,人工智能反而取代的是那些高度创造密集、高度感知的,其实是靠直觉进行创造的工作。
本质上讲,目前的人工智能方法只是训练了一个概率模型,世界上所有能够被采集到的数据概率,全部被这个模型捕捉下来。这种方法某种程度上可以看到有一种潜力,即很完美地帮助解决人类所有依靠直觉需要解决的事情。但是,要通过思考、要通过推断来解决的事情现在很难做到。
刚才 TT 的例子给了一个非常好的案例,我要去构思一个作品的时候,使用我的直觉、使用我对环境的认知去进行创作的时候,如何利用 ChatGPT 给我一些初始的分布,推敲剧本、构思每一个部分,很大程度上这是直觉所驱动的结果,而理性分析更多的是由人来扮演。我们写程序脚本的时候,ChatGPT 并没有真正地会写特别多的程序脚本,但是它可以帮助你去创造生成你所需要的那部分脚本。它可以帮助人类接入到System2的逻辑分析、逻辑推断、Houdini、C++ 的系统等一系列,逻辑演算进行的现代的大规模计算引擎、大规模游戏引擎的工作中去。其实,这某种程度上揭示了System1和System2如何有效地合作,直觉与理性如何在将来的系统齐头并进的图景中发挥作用。现在是人在中间完成一部分,将来通用人工智能 AGI 的使命是有效地达到人类程度的认知、人类程度的模型分析、模型建立和理解的推断能力。这是将来很重要的一件事情。TT老师演示得非常好,从蒋老师谈到的,我们把ChatGPT当作一个配置,但是把谁和谁配置到一起是由你来决定的,ChatGPT加入进来,团队变得更有效率了。实际上,我看到很多关于ChatGPT的讨论,谈论它的局限,比如在理解上下文方面的局限,我们前面也谈到长短期记忆,使得现在无法输出特别长的结构化的内容。但短的其实也够了,我们不断地提示,使得越来越符合你的需要,何必非要出来一个长的东西呢?
我们需要在观念上进行转变,应该如何把ChatGPT和我们自身的创作方法整合起来。这种观念的转变非常重要,你可能与TT老师的工作流不同,使用的是其他软件或方式,但是我们需要思考如何将这些不同的方法整合起来,让ChatGPT作为一个创作工具。
我看到一些学者和技术人员称ChatGPT为某种软件和巫术的混合体,我就喜欢其中的巫术部分。人也有理性和非理性的部分,创造力和想象力就是理性和非理性混合的部分。ChatGPT也是如此,我们不需要讨论它是否有意识,但它肯定包含了某些类似于巫术的元素。Wolfram Alpha是理工科人经常使用的一个软件,它在计算方面具有特别强大的能力,将这种软件和ChatGPT整合在一起,ChatGPT计算方面的短板就被补全了。这意味着,我们在自然语言交互方面不再是简单的1+1=2的关系,而是一种远远大于2的配置。我们自身作为一个巫术的理性和非理性的混合体,与ChatGPT配置在一起,也绝对会产生1+1远远大于2的结果。微软下一步还将把ChatGPT与各种各样的AI模型结合起来,面向各种任务,包括图像、语言和视频等。
我之前看到黑客马拉松有一个非常小众的应用,有些人讲话时口吃,导致交流困难。ChatGPT则可以将口吃的语音转换为通顺的文本,可以跟其他人更加顺畅地交流。
这引出了一个思考:如何从观念上转变,不将人工智能视为敌人,而是将其作为一种能够对我们的创作产生积极影响的工具,这取决于我们如何将其与我们的创作方式和工作流程整合起来,而TT提供了一个非常好的经验。十三维老师您有什么看法?TT老师刚才展示的结合ChatGPT工作流的游戏场景非常震撼,有很多丰富的细节,如果作为一个教程我也是非常期待,因为我也对游戏艺术非常感兴趣。我在集智俱乐部也发起了一个「复杂科学与艺术」活动,之后还会有一个专题关于游戏艺术,在这一块可能会请教TT老师。
关于利用ChatGP作为一种生产工具来提高我们的效率,我还想提出一个问题,大家在讨论的过程中有一个假设,即最终的决定还是由人类做出。无论是创造什么东西,还是提高生产力,都是为了满足我们的需求,包括审美需求,最终的评判都应由人类做出决定。
我之前一直思考一个问题,现在的观点也有些动摇。目前来看,AI的能力,包括ChatGPT,是否具备真正的理解力、想象力和创造力?例如,在讲故事方面,是否具备真正的因果能力?这种观点是一种幻觉还是胡说八道?这是我特别想探讨的问题。我先谈一下我的理解:从AlphaGo 出现以来到AlphaZero,AI已经能够探索到人类历史上从未出现过的那些棋局定式,后来发展AI这些发展让它能够用于科学探索。例如,在 2020 年,麻省理工学院发现了一种新的抗生素,它能够杀死所有已知的耐药菌株,而且不会导致新的耐药性产生。
用于抗生素筛选的机器学习模型
这种抗生素是通过 AI 模型训练出来的,使用了超过 61,000 个分子,并符合以下几个标准:1. 抗菌效果;2. 不像已知的抗生素;3. 无毒。最终,AI 找到了唯一的一种抗生素,被称为Halicin,非常有效。现在,ChatGPT 火了, “AI+科学”这个领域也在发展。未来,科学家如果不使用 AI 工具的话,可能很难从事创造性的工作。从这个现象来看,似乎AI已经能够发现人类所不能理解的东西了。AI最终会给出一个结论,例如“这个东西是正确的”,我们对这个结论进行研究。此时,作为判定者,我们不能再主观判断,因为AI已经证明其客观有效性。当然,这牵扯到可解释性的问题。在这个“黑箱”中,我们发现AI确实提供了超越人类的理解力,这是第一层。
关于想象力和讲故事的能力,老蒋提到了“storytelling”的能力。对于人类来说,当产生虚构能力和符号化能力时,会用具体的表征来描述外部世界,这个表征产生于自身的情感、感知和运动。表征之后,就不同于直接感知到的世界,而是产生了一个直接感知之外的虚拟世界或者精神世界。在这个虚拟世界或者精神世界的互动中,人类就产生了故事,例如在远方、上帝或遥远的国度等等。
一些研究故事的叙事理论发现,所有的故事都是由因果构成的。故事必须包含因果转折,如果一个事件没有因果转折,那么它就不是一个故事,而只是一个事件,这要求我们能够理解真实世界的因果关系。ChatGPT是否真的具备理解因果关系的能力?按照老蒋的思路,因为它没有我们千百万年的基因演化历史,没有与外界环境互动,因此不能积累所有这些因果关系和信息。或许,未来基于强化学习或演化学习的智能体能够与环境互动,也可以逐渐学到与世界结合的知识。
但是,如果从ChatGPT本身来看,我们会发现大型语言模型确实拥有一些意想不到的能力——涌现。
为什么大型语言模型能够如此有效呢?复杂系统科学家菲利普·安德森曾经说过:“more is different。”大型语言模型就是具有巨大规模的复杂模型,随着模型规模的增大,就会出现一个规模效应:“模型规模越大,效果越好。”这与一般复杂系统的规律相同,说明模型内部可能存在许多类似分形结构、自相似结构,从这个角度来看,大型语言模型已经不仅仅是简单的数据堆积,而是产生了许多复杂的结构。只有这样,才能因规模的增大而突然产生出小型模型无法具备的能力。我想请教讨论一个问题:ChatGPT在复杂性系统中所谓的涌现现象,是否是真正的涌现?有一种观点认为,模型的能力是不平滑的,除非所有情况都正确,否则模型不会具备某种能力,必须在某个概率或百分比阈值之上才会具备。这种情况下,如果模型只有在达到一定能力水平时才能表现出这种能力,是否算作真正的涌现现象?
袁园老师提到,当让一个模型完成一个非常宏观的任务时,可能表现不佳。但如果给出更具体的提示,例如提供一些类似的思维链,通过把原有的任务划分为更细的子任务,模型就能够解决问题。这个推理能力是否真正基于因果推理?
语言模型的语料库可能无法涵盖所有的人类文化和领域,但已经涵盖了大部分,因此即使是基于概率的模型,也很可能具备一定的因果推理能力。如果模型能够进行因果推理,那么它的“胡说八道”或者幻觉可能并非真正的幻觉,而是对人类某些有意义的内容的发现和讲述。它可能会讲述一个新故事,例如发现一个适合人类居住的地球,并告诉人类如何利用科技走向那个地球。
这种情况下,模型是否已经具备某种意义上的创造力?
从这个角度来看,我想请老蒋或TT老师分享一下对涌现现象和推理能力的看法,以及这些能力是否具备某种创造力。
我正好想跟你讨论一下这个问题,坦白来讲,模型涌现这些现象在大语言模型训练中也能够观察到一些,它甚至产生了一系列超乎我们预期的能力等等。但是很大程度上讲,有一些问题还是存疑的,在这儿之前,我想跟你探讨一个更根本一点的问题——因果从哪儿来?因果是一种客观物吗?是客观实在吗?关于因果性,我今天向ChatGPT提出了这个问题。它的回答是因果性既有客观性的一面,也有主观性的一面。客观性的一面类似于宇宙中存在的物理规律,包括某些数学对称性的规律,这些规律是已经客观存在的。主观性的一面类似于我们主体观察到这些规律之后,基于自己的大脑模型进行了一个心智的建模。但这个建模肯定是不完善或者不完备的。为什么科学发展总是不断推翻旧的理论呢?从物理学的角度来看,这是因为主观对客观的建模总存在一个不断更优化、有更好的拟合度问题。
在我看来,关于因果性的认识,我的感觉和ChatGPT的回答是一致的,既有客观的一面,也有主观的一面,但主观的一面会接近客观的一面。因此,我不认同休谟那一派的看法,也不认为因果性完全是主观的解释。好的,我的观点是,因果关系是根植于客观世界的,它是我们对客观世界进行分析和认识的结果,是我们对客观世界进行重整化、粗粒化和最终建模的产物。从这个角度来看,我比较支持休谟的观点,认为因果关系是相对主观的。关于因果关系,最关键的是包含哪些实质的内容?在我看来,因果关系与反事实推断能力息息相关。拥有较强的因果推断能力,就有更强的反事实推断能力。反事实推断能力主要依赖于对模型的理解,即只有理解了模型,才能进行一定的模型推断,并进而进行反事实推断。
在其他情况下,现在因果关系的研究有很多争议,有些因果关系很难进行解释和理解。说实话,我对因果关系的研究有些难以理解。当然,一些因果关系可以通过时间维度的前后建模来实现,例如在Transformer模型中也有一些类似的方法,但我对这些方法持怀疑态度。总的来说,对于因果关系,我持保留态度。关于大语言模型的涌现现象,“more is different”。我们可以回到深度学习刚兴起时的早期,2007年左右,当时已经有许多关于深度学习的研究。其中一位研究者指出:“Recontruction is Understanding”,翻译过来就是“如果能够重建出一个事物,那么一定理解了其中的很多内容。”最早的深度学习是Auto Encoder训练了9层网络,可能两侧都是9层。最终,训练9层网络能够实现这一目标。现在,几乎所有的人工智能都采用相似的方法,即在一个称为神经网络的函数逼近中构建一个信息流形或者表征,并得到一个抽象的表征,可以很好地重建原始数据并理解其中的共识和关系。这个领域已经有了很多工作,例如非线性动力学分析、机器学习中的区分生成神经网络的训练过程等。从动力学的角度来看,训练过程中会产生突然的涌现现象,但最终会达到比较好的结果,这在各种尺度模型上都是存在的。同时,我非常好奇,如果我们把人类所有的领域、所有的文本,所有的信息都输入到训练模型中,那么我们需要一个巨大的模型、巨大的规模参数和巨大的计算量。但是,在相对受限制的领域中,一个经过充分训练的模型是否也会产生相应的涌现现象呢?这是可能的。回到Geoffrey Hinton所讲的这句话“Recontruction is Understanding”,就是一种understanding。我把一个东西能够压缩,我能够压缩了意味着它是一种understanding。现在训出来的大模型文本规模越来越大,达到很夸张的水平,甚至于接近我训大的文本,很大程度上可以拿到更多的文本,甚至远大于参数的文本训这样的模型,只是世界上没有那么多文本了,并且训练是一个重建过程。这个事情上我其实对文本进行了压缩,文本进行压缩潜空间,抽象相关的状态在一起,使得看起来确实有一定程度上能够进行推断的能力,我认为这种方式把System1确实做到极致了,做到了接近System2的水平。目前,我正在探索不同的评估方法来进一步提高模型的性能。
尽管现在的大型语言模型已经接近于生成2,但在模型推断能力方面,它们与生成2之间仍然存在巨大的差距。目前的架构很难弥合这种差距,可能需要一种完全不同的架构,例如基于transformer的图灵机,或者其他计算完全性方法。然而,目前还没有令人信服的证据表明一定要使用transformer来实现这种架构。实际上,使用transformer实现这种架构可能是相对低效的。
我认为未来,生成1和生成2之间的差距将进一步缩小。目前,生成1已经取得了巨大的成功,它可以被看作是一种符号系统,但并不完全是。我并不是支持符号系统本身,或者说,生成1可以进一步形式化演算以达到生成2的程度。这是我能够看到的潜在突破方向。十三维老师抛出了一个特别好的问题,我的想法可能比较激进。ChatGPT现在基于有限经验,即使再大的训练数据集也是如此。尽管如此,已经出现了一些例子,例如蛋白质找抗生素的例子,它可以完成超越有限经验的任务。这引出了一个认识论的问题,即如何通过有限经验认识超越有限经验的真理。这里可能会出现一个无法验证的答案,它仅基于直觉,我们只能说这个答案在未来肯定是正确的,但在现在无法验证它。这里的问题在于,我们是否相信ChatGPT的直觉?
哥德尔认为数学有一种直觉,可以直接给出一个不基于公式推理的数学直觉,但现有的数学知识无法验证它的真实性。同样地,ChatGPT可能会给出这样的答案,这个答案不基于现有的经验和知识,只基于直觉。
此外,蒋老师提出的因果关系,我认同因果关系是一个主观建构,是一个解释学的范畴,但并不认为ChatGPT需要往因果关系上发展。因此,将ChatGPT引向因果关系是一个伪命题。老蒋在技术和数学领域非常熟练,能够深入探讨细节,而聊到宏观哲学概念和与社会学相关的话题时,我会进入一种迷离状态,因为我觉得中国教育最大的问题在于过度强调概念和历史研究,应该要更多地将年轻一代学生引导到解决实际问题的领域。只有具体问题才能带来成就感和激情,当然,我并不是说我们不应该讨论大框架的问题。
下午,我与老蒋讨论了如何让更多的人使用我们的解决方案。我们想到的一个方案是,在ChatGPT和我的个人数据集之间增加一个小GPT模型的层,让它作为ChatGPT的中介,以便更好地理解需求文档、个人需求文档和最新的论文。我们探讨了具体的技术解决方案,并考虑到规模扩大后是否可行。TT老师提出了一个非常好的思路,我们之前谈论过ChatGPT的局限性。作为一个大型模型,它并非定制的,一次会话结束之后就结束了。然而,ChatGPT也有其独特的能力,因此你可以将个性化部分完全自定义以满足你的需求。你可以在ChatGPT与你之间加入一层,进一步分解层次,然后通过不断的经验和语言训练,让它更好地了解你的需求。这样,你就能够得到一个完全满足你需求的小型GPT,而这个思路非常棒。
TT老师还提到,这与我们之前谈到的ChatGPT与教育的关系有关。你会发现,如果你善于提问,ChatGPT的应用就会非常出色。反之,如果问题不好,ChatGPT给出的答案也不好。因此,培养提问能力和提示能力是非常重要的。在以前,我们的教育非常薄弱,我们不敢提问,上课也不敢举手,不知道如何提出好问题。这就像苏格拉底哲学中的对话,不断深入地追问问题。这里涉及到的问题,我看与ChatGPT和教育之间有很多焦虑和争论,但关键的问题在于方向错误。方向错误在哪里呢?
思路是如何阻止学生使用ChatGPT作弊、使用ChatGPT写论文、写作业,但恰恰忘记了,如果我的学生能够使用ChatGPT完成作业并让老师或评估系统满意,那不是学生的问题,而是作业布置的有问题。这个作业并非基于考验人的创造力和想象力,而是把人当作工具来完成任务,这就是作业和任务的问题。
从这个角度来看,恰恰教育应该充分拥抱ChatGPT,而不是禁止ChatGPT或学生使用它,将它从课堂中驱逐出去。因为ChatGPT可以检验教育所提供的任务和目标。真正将教育引向有用的方向,使学生能够提出批判性和反思性问题,不断推进人工智能的实际应用。TT提出的这两点都很好,特别是加入小GPT中间层可能非常实用。
坦白地说,人们对当前整个大型语言模型架构的系统持有各种不同的观感。回顾AIGC的爆发,Stable Diffusion有一点好处就是大型模型反而更小,规模大约为3.5G,因此对其进行模型微调不是那么困难。在过去两个或三个月里,人们已经开始使用各种方法来进行微调,例如LoRA任意类别风格化,专门训练的小型模型的补丁,以及ControlNet来进行condition条件控制,控制生成语言模型的结果。GPT为代表的大型语言模型整个系列也将经历同样的过程。
因此,当我和TT在之前讨论的时候,我们考虑的是要创建什么样的模型来修改这个大型语言模型,以及通过打补丁等一系列方法进行改进。这些未来的工作预期非常开放,会有各种类型的人参与其中。我和老蒋几年前一起工作时,我向他展示了我的笔记。我有一个小的Transformer模型,用来训练我自己的笔记。我之所以训练自己的笔记,是因为我喜欢记录笔记,每天我会记录十多条,总共记录了几万条笔记。通过这些笔记的学习,我发现大型和小型的GPT之间有联系。
如果个人直接使用大型GPT,就像我们的教育系统一样,如果学术漫无目的地使用ChatGPT,用不了多久,ChatGPT可能只是一个小玩具。
因此,我们需要建立一个阶梯式的架构,老师作为一个问题的构建者,帮助学生提供思路、大纲、探索方式和挖掘方式,然后逐步将这些步骤转化为笔记训练模型或学习方法训练模型。在这个过程中,老蒋几年前就给了我很多启示。在这几年里,我记录的笔记数量也大大增加了。当然,我对强化学习不是太熟,这是想和老蒋合作的一个强化学习的项目,看看强化学习能不能用在我的笔记上试一下。
回到这个话题,我想再多说几句。刚才我们讨论了人工智能何时能够真正涌现一种生命,或者说可以视为一种独立的硅基生命体。我们在大语言模型上看到了很多非常神奇、惊人、奇迹般的事情,但就神经网络本身而言,从理论上可以确认的事情和现有的证据来看,它的内插能力非常强。在已有的事件中,它能够找到已有事件分布之间的相关联系,并找到中间没有数据点的结果。
但是,它的外推能力相对较弱,也就是说,它无法处理分布之外的情况,除非它见过世界上所有的事情。为了解决这个问题,未来的模型可能会具身化,这是一个非常典型的方法,我们也在进行相关的工作,即如何让这些多模态的大型模型系统在机器人上运行,真实地感知环境、感知环境对它的影响以及环境的反馈。只有这样,才能一步步接近或找到有效的因果联系,或者采用更先进的架构来产生模型能力的重要部分,但这需要我们欠缺的一环和相关的数据输入。进一步来说,更深层次的问题是,我们创造的硅基生命何时才能被视为生命?我们之前讨论的许多问题实际上都可以归结为一个问题,即何时会认为它有自主意识,可以作为一个独立的个体来看待。坦率地说,在我现在的想法中,强化学习,也许可以通过训练它达到目标,或者是让它内省自身的目标进行训练,但这种方式很难说,如何获得作为一个物种的内在本能。我的观点是:只有经历了生与死,才有资格谈论自己作为生命的体验。然而,对于人工智能来说,经历生与死在地球上基本是不可能发生的。这并不是说这种情况永远不会发生,只是目前地球上缺乏创造人工智能体验生死的条件,例如生命危机、进化和变异等。演化计算虽然是有目的的,但是不同于真实环境下找到生命的动力。因此,人工智能体验生与死是不可能在地球上发生的事情。在地球上最重要的事情可能是机器为人类和机器本身提供服务。将来,很多机器之间的服务可能会成为主流,同时也会有很多利润来源于此。比如,Sam Altman去年写的一篇名为Moore's Law for Everything(《万物的摩尔定理》)的文章中指出,自动化创作的机器将创造所有东西,成本将趋向于智能机器的中心,甚至是智能本身的中心。因此,未来机器的价格可能会非常便宜,甚至成为政府征税的项目。那么什么情况下智能才会真正拥有生命呢?我们可以回顾一下创造智能和机器人的初衷。创造智能的目的很大程度上是为了创造机器人。然而,真正意义上的智能机器人并不存在,我们只是在接近这个目标。我们创造智能机器人的目的是为了帮助人类解决一些挑战和问题,特别是那些人类本身无法解决的问题,智能和智能机器人的任务就是完成人类无法完成的任务。这些任务不仅可以帮助我们解放生产力,也可以帮助我们完成那些人类可以做但机器更擅长的任务。什么是人类做不到的事呢?在地球上,极端环境是一种人类无法掌控的环境,而更加极端的环境则是地球之外。在地球之外,尤其是在地球轨道周围,我们几乎可以获得无限的能源。因为每平米都可以产生1000多瓦的太阳能,可以轻松地产生两三百瓦、甚至三五百瓦的电力。这是一个非常庞大的能源规模,一张显卡也只需要300瓦的电力。老蒋我打断一下,聊的太高级了,你把生命看的太高级了。一旦我的GPU可以仿真出整个宇宙,这个宇宙是真实的可能性就很低了,所以不用把生命看的那么高级。你现在作为计算机科学家的前物理博士,我反对你这个看法,我不认为我们能仿真真实的宇宙,你仿真的宇宙只是你看见的、设定的宇宙,并不是真实的宇宙,但对于进化仍然不是这么一回事。说到生命的高级,我承认生命并不是一个真正高级的行为,我同样承认智力、认知也不是高级的行为。但是我认为:“没有经历过生死就没有生命。”从一定程度上,人工生命领域我是承认的,人工生命确实可以有生命相关的性质,但是内存里面,只能说这个东西和生命相似,我不认为它是生命的形态。关于生命形态的定义来自于从真实世界重新创造复制自己本身,也许机器将来可以做类似的事情,但真的做这样的事情不是在地球上,而是地球之外,我们有无尽的能源和资源在地球之外。前段时间,我做对白的时候问了一下ChatGPT:“在一个末日生存的游戏里面,给我一些比较幽默的对白。”它给我的第一句话是:“一个需要氧气才能活下去的物种还在想探索太空,真的是为难他们了。”对,机器不需要氧气活下去,所以它应该去探索地球之外的世界。这是它们应该做的事情。ChatGPT已经在嘲笑人类了。比如说因果律,我们的大脑和行为是有因果关系的吗?大多数,我们的意识是否是真实的我都不太确定,说实话,我创作出来的大部分内容真的不是思考出来的,只是闭上眼睛看到了,特别是对于艺术类的创作。人类是否真的有意识?这是另外一个话题,我们不扯远了。蒋老师刚才谈到了ChatGPT的具身性,除了在虚拟世界中的发展,无论是在工业环境还是商业日常生活中,现在已经涌现出很多应用,例如电子宠物、百度音箱等,原本这些事物已经被预设了功能,但现在可以加上ChatGPT,实现更多功能。
当然,讨论ChatGPT的具身性还有其他几层含义:一是现实生命中的实体物与ChatGPT的结合;二是通过我们的配置,让ChatGPT具备具身性,我们提供肉身。
这是一个非常有趣的话题,回到碳基,回到现实世界,探讨ChatGPT的另一个方向。TT老师更关注ChatGPT在虚拟世界中的发展,因为物理世界中的约束条件太多了。在数字世界、虚拟世界中,ChatGPT的效率可以从1跃升到30、100,但在现实世界中可能会遇到挫败感,1-2就费劲,与ChatGPT之间存在着巨大的鸿沟。要进入现实世界可能需要面临更大的挑战。在过去,技术界对元宇宙的渴望与狂热,让我们认为我们可以收集所有人的所有数据,最适合搞IT、搞信息的人,掌握所有的信息就无所不能,我们就是整个世界了。但是,从另外一个角度来看,将来真正可能会发生的元宇宙,可能是我们周围无数不在的智能,以及被智能本身塑造的整个世界。
坦白地说,物理世界可能现在来看是很难的事情,但这个事情正在慢慢地大规模变化,可能在3-5年的时间内,机器人学习控制和智能已经开始渗透。从2015年的强化学习开始,机器人已经真实地学会操作。虽然这个过程比较慢,中间会有很多问题,也解决了很多问题,可是直接在日常环境中运行还是是很难的,但是在半年前,包括语言模型的进步、底层transformer的进步、语言模型的进步、多模态的进步等一系列的因素,机器人的运动控制现在也变成多模态,使用一样的方法进行训练,现在已经有非常好的效果。3-5年内,预计整个领域会有非常大的变化。
从这个角度来看,将来信息对物质世界的操作和现在完全不一样,会非常高效,彻底改变现在的图景,也许只需要5-10年的时间,我们将会看到一个完全不同的世界。谢谢蒋老师,今天时间差不多了。最后不是以结论结束,而是以问题结束。先请TT讲,GPT4马上要问世(讲座时GPT4还未问世,现在已经发布),大概能估计到是跟多模态有关系的,你从虚拟世界里谈谈GPT4的展望多模态带来的可能的变化?现在,我的主要研究方向是将物理仿真应用于游戏。游戏之所以有趣,是因为它融合了我所喜欢的所有东西,如文学、动画、音乐等艺术形式。
所谓多模态,就是我们所有的感官都能被填充。我最期望GPT4能带来的,是它对影视和游戏生产力的提升,比如建模、图像、故事等方面。如果能够带来革命性的体验,对于大多数创作者来说,会分成两个极大的极端。
一部分创作者,甚至绝大多数创作者,可能没有能力创作了,不得不转行。另一部分创作者,因为得到了这个工具,能够快速深入地挖掘和了解他们内心想要创作的东西,他们得到的创作灵感会让他们的头发都炸了起来。我现在就非常期待这个事情的实现。我们期待TT老师炸毛的那一刻早日到来,十三维老师你怎么看待多模态的发展?我也非常期待多模态的应用。从认知神经科学的角度来看,大脑中有许多编码细胞,有些细胞单纯编码视觉信息,有些单纯编码音频信息,有些单纯编码触觉信息,还有一些细胞同时编码多种信息。如果我们能够将视觉、声音、触觉等各种语义的模态同时编码,比如听摇滚音乐时同时有视觉、声音、触觉以及歌词等多种信息,那么我们对这段经历的记忆就会更加深刻。
在多模态编码上,能够产生一种远远超过单模态编码信息的有效性或深刻性。在因果推理领域,多模态联合推理也能远远超过单一模态信息推理的结果,这也是有认知神经科学研究结论支持的。
如果GPT4能够同时处理多模态的信息,这将是对创作者的巨大帮助。加入不同模态的信息之后,可能会迅速产生超越我们现有想象力的匹配效果,或许会有一种涌现。因此,我非常期待ChatGPT4能够处理多模态信息的能力。谢谢三位嘉宾,也谢谢今天参与直播的观众,我们期待GPT多模态的发展能够真正如十三维老师所说,重塑生产关系、生产力,最终能够把意味着社会形态和社会文明的元宇宙重塑,让我们尽早看到这个愿景。谢谢大家!服务器艺术以服务人类的智慧与知识生产为宗旨,汇聚艺术与科学、哲学人文各学科领域的精英人脉,打造一个理性思想与感性经验交互碰撞、沟通和融合的跨界空间,以此探讨并追究艺术、科学、哲学对于人类存在的意义。服务器艺术基金会将承载一个跨学科、多媒体的交流平台“呼吸公社”,定期举办跨领域的学术对话、讲座、论坛,以闭门与公开、线上与线下等各种交流传播形式,不断拓展并突破现代社会的知识视界和思想疆域。同时服务器艺术立足于艺术的当代性、国际性和原创性,致力于探究全球语境下当代艺术的精神内涵和价值取向,并以收藏、研究优秀当代艺术作品的新型模式,推动中国当代艺术在人类知识基因、文化根性和历史文脉上的不断建构和发展。